#video streaming

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

5小时前

我觉得这一段（3:28左右讲贾樟柯的长镜头开始15分钟）讲Cambrian-S论文（），的才是这7个小时访谈的精华。对CV确实saining xie有自己独到的理解。语言是L0，多模态是L1，video streaming是L2。背后是vision的多层次表征hierarchical representation。 CV还是在感知层，这是何凯明谢赛宁们对AI的切入点。 Ilya们切入了数字神经网络层，是表征学习发生的空间。 LLM们是语义空间。这已经是人类智能筛选过的空间。当可能这些切入点可能都会殊途同归-智能的本质。可能是saining research的taste所在。

#贾樟柯 #长镜头 #Cambrian-S论文 #saining xie #CV #多模态 #video streaming #Vision #AI